ç

Descrição da página

A página raspada contém os dados de vacinação dos 911 munícipios do Estado do Rio de Janeiro. A página é dinâmica e por isso não foi possível utilizar o pacote HTTR2, usou-se então o pacote webdriver.

O interesse pela raspagam desta página surgiu atrelado ao desenvolvimento de um trabalho acadêmico que objetivou, em conjunto com outros fatores de análise, a comparação do desempenho das 91 gestões municipais

Fluxo do web scraping

Como fiz para imitar a requisição que aparece no site?

Para suprir esta etapa eu utilizei o comando ctrl + shift + i e inspecionei como estava estruturado o cógido do site até encontrar os nodes que eu precisava acessar para extrais as informações de interesse. Criei o caminho em XPath mais adequado e apliquei este parâmetro na função (agora já no Rstúdio).

Como fiz para iterar?

Esta etapa não foi necessária para eu atingir meu objetivo.

Como é a estrutura do site?

Fig1: ScreenShot do código fonta da página

Fig1: ScreenShot do código fonta da página

Como é a estrutura do arquivo a ser parseado?

Após a correta conexão com o site e ao utilizar a função xml_find_all do pacote xml2 o tipo do dado é um xml_nodeset.

Descrição de cada coluna da base

O banco de dados contém 13 variáveis e 91 observações.

Sobre as variáveis:

  • id = identificação do município;
  • percent_d1 = percentual de primerias doses aplicadas;
  • percent_d2 = percentual de segundas doses aplicadas;
  • percent_du = percentual de doses únicas aplicadas;
  • municipio_name = nome do município;
  • total_population = total da população municipal;
  • estimated_population = população estimada;
  • vaccined_count_d1 = número de doses 1 aplicadas;
  • vaccined_count_d2 = número de doses 2 aplicadas;
  • vaccined_count_du = número de doses únicas aplicadas;
  • total_distributed_d1 = total de doses 1 distribuídas;
  • total_distributed_d2 = total de doses 2 distribuídas;
  • total_distributed_du = total de doses únicas distribuídas.

View do banco

Tabela 1: Banco de vacinacão Rio de Janeiro

Análise descritiva dos dados

Primeira dose

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1515    8618   15407   82235   48130 3670131

Segunda dose

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     545    2790    5232   31802   16558 1484441

Doses únicas

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      0.0    182.5    460.0   2849.5   1083.5 131159.0

Visualização das variáveis dependentes - número total de doses 1,2 e únicas aplicadas no Estado

Gráfico 3D para todos os municípios do Estado

Vacinação em munícipios do Rio de Janeiro que possuem tamanho populacional semelhantes

Gráfico 3D com 8 municípios com tamanho populacional semelhante

Cometários gerais

O desenvolvimento desse trabalho foi o meu primeiro contato com web scraping e tornou-se desafiador. Senti dificuldade no momento de transformação do HTML em um data.frame visto que a função html_table() do pacote rvest não foi possível de ser aplicada. Além desse fator, possuo diversas limitações sobre a área do conhecimento, e por isso, não consegui desenvolver solução tão elegante quanto as propostas pelos professores em sala de aula e acabei por uma solução não muito automática. Quanto a este momento, gostaria, se possível, de uma ajuda para encontrar uma nova proposta de solução da etapa de transformação dos dados baixados em uma tabela csv.


  1. Sabe-se que o Estado possui 92 municípios, porém, essa quantidade varia de acordo com a disponibilidade de dados no site. Até o dia da raspagem, não havia informação disponível para o munícipio de Quissamã.↩︎

  2. Houve um teste com a função GET do pacote HTTR que não retornou as informações requisitadas.↩︎